スマホで見る方はQRコードを読み込んでください
[1] 68.28571
7人の学生の体重が50, 60, 85, 70, 80, 67, 66kgであったする.このデータを変数名“weight”に代入する.
同じ7人の学生の身長が155, 164, 182, 165, 177, 177, 172cmであったとする.このデータを変数名“height”に代入せよ.
[1] 68.28571
[1] 68.28571
[1] 68.28571
[1] 67
weight
50 60 66 67 70 80 85
1 1 1 1 1 1 1
変数名“height”の合計・個数・平均値・中央値・最頻値を求めよ.
Min. 1st Qu. Median Mean 3rd Qu. Max.
50.00 63.00 67.00 68.29 75.00 85.00
左から順番に「最小値,第1四分位数,中央値,平均値,第3四分位数,最大値」を示しています.
変数名“height”の最小値・第1四分位数・中央値・平均値・第3四分位数・最大値を求めよ.
\[\sigma^2=\Sigma{((データの値)-(平均値)})^2/(データの個数)\]
ここでは,分母と分子に分けて話を進めていきましょう.
(データの値)-(weightの平均値)をして「平均からの偏差」を求めます.結果は“hensa_weight”に代入します.
[1] 118.4898
標準偏差は分散の平方根です.平方根を求める関数は“sqrt()”であり,“hyohen_weight”というオブジェクトに入れてあげます.
[1] 10.8853
「不偏分散・不偏標準偏差」と「標本分散・標本標準偏差」というものが出てきました.この話を理解するためには「母集団」と「標本」という話を理解する必要があります.ここでは簡単に,その2つの違いについてお話したいと思います.
私達が何かのデータを取る時は,全ての物事のデータを集めることが必ずしもできるとは限りません.例えば,「本学大学生1年生全員を対象としたアンケート」を実施すれば全てのデータを集めることができるかもしれませんが,「日本国民全てを対象としたアンケート」を集計するのは非常に困難です.
例えば,大学1年生の意見を調査することを目的として,1年生全員のデータをそのまま用いる分には問題ないのですが,「日本国民全てを対象としたアンケート」を実施するのはコストの面から考えても現実的ではありません.そのために,全体(母集団)の中から一部を取り出して(標本,サンプル),全体の意見・傾向を「推定」するという手法がとられるようになりました.
このような「推定」という手法を取る時に,“データ数”のままで分析するよりも“データ数-1”で計算してあげたほうがよりよい推定ができる,ということで“データ数-1”をするようになりました.
本当はもう少し細かな数学的な議論もあるのですが,入り込むと帰って来れなくなるのでここまでにしておこうと思います.とりあえず,これからは「不偏分散・不偏標準偏差」が使われることが多い,とだけ覚えておいて下さい.
今は皆さんに手入力でデータを打ち込んで貰いました.今度は,皆さんには“csvファイル”からデータを読み込んでもらおうと思います.Rの標準のデータ形式以外の他の形式のファイルを読み込むことを「インポート」と言います.
RStudioを使ってもらうと,次の手順でデータを読み込むことができます.
下のコンソールには3つのコードが書かれます.1番目のコードは“readr”というパッケージを使うように,という指示をしています.2番目のコードは“データを読み込んで,こんな名前にしておいて下さい”を示しており,3番目のコードは“読み込んだデータを表示して下さい”を示している.
なお,このコード(特に上の2つ)は“>”を取り除いて上の“.R”ファイルに保存しておくと,次回以降便利であることが多い.
その時に,なれるまでこんな感じに説明書きも入れておくと良いと思います..
library(readr)
# パッケージreadrを使う
dataset <- read_csv("~/hogehoge/dataset.csv")
# datasetを読み込む
なお,この“hogehoge”は読み込んだデータを保存した場所を示しており,人によって異なるので注意してください.
このデータはゴトウが実施した1926人分のデータのうち,ランダムに選んだ963人分のデータです.このデータの取扱いについては,現在分析中&論文として執筆中なので細心の注意を払って下さい.まだ,データの中身は「データの概要」に記載してあるので,そちらを参考にしてください.
読み込んだデータの記述統計量を算出します.ここでは人々の主観的幸福度について記述統計量を算出します.
主観的幸福度とは人が感じている幸福度を示したものです.ここでは「現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?」として尋ねたものです.
昨今では主観的幸福度は「幸福の経済学」という分野で注目されています.
それでは,記述統計量を出してみましょう.特に,複数列あるデータの場合は$を使って,「データセットの中のこのデータ列について平均値を出して下さい」というように指定してあげます.
library(readr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
library(ggplot2)
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))[1] 2.345872
主観的幸福度(SUB_HAP)のヒストグラム
10dai 20dai 30dai 40dai 50dai 60dai 70dai
8 140 361 358 77 18 1
Skim summary statistics
n obs: 963
n variables: 54
| variable | missing | complete | n | min | max | empty | n_unique |
|---|---|---|---|---|---|---|---|
| F_FGR | 0 | 963 | 963 | 7 | 9 | 0 | 11 |
| F_GEN | 0 | 963 | 963 | 5 | 5 | 0 | 7 |
| F_GEN_2 | 0 | 963 | 963 | 3 | 5 | 0 | 12 |
| F_INK | 0 | 963 | 963 | 2 | 10 | 0 | 10 |
| F_INS | 0 | 963 | 963 | 2 | 10 | 0 | 11 |
| F_SEX | 0 | 963 | 963 | 4 | 6 | 0 | 3 |
| F_TAN | 0 | 963 | 963 | 5 | 15 | 0 | 13 |
| SEX_NIN | 340 | 623 | 963 | 5 | 10 | 0 | 12 |
| SEX_OBJ | 157 | 806 | 963 | 4 | 5 | 0 | 4 |
| variable | missing | complete | n | n_unique | top_counts |
|---|---|---|---|---|---|
| ARE | 0 | 963 | 963 | 8 | Kan: 376, Kin: 165, Chu: 148, Kyu: 92 |
| CHI | 0 | 963 | 963 | 2 | Chi: 495, NoC: 468, NA: 0 |
| MAR | 0 | 963 | 963 | 2 | Mar: 569, Not: 394, NA: 0 |
| ordered |
|---|
| FALSE |
| FALSE |
| FALSE |
| variable | missing | complete | n | mean | sd | p0 | p25 | p50 |
|---|---|---|---|---|---|---|---|---|
| DED_JIG | 0 | 963 | 963 | 2.32 | 0.83 | 1 | 2 | 2 |
| DED_KIS | 0 | 963 | 963 | 3 | 0.77 | 1 | 3 | 3 |
| DED_PUN | 0 | 963 | 963 | 2.74 | 0.84 | 1 | 2 | 3 |
| DED_SHI | 0 | 963 | 963 | 2.54 | 0.87 | 1 | 2 | 3 |
| DED_TEN | 0 | 963 | 963 | 2.41 | 0.84 | 1 | 2 | 2 |
| DIC_FRI | 0 | 963 | 963 | 3.47 | 2.62 | 0 | 1 | 3 |
| DIC_OTH | 0 | 963 | 963 | 0.9 | 1.85 | 0 | 0 | 0 |
| DIC_PAR | 0 | 963 | 963 | 5.65 | 3.34 | 0 | 4 | 5 |
| F_INK_cen | 67 | 896 | 963 | 2.83 | 2.6 | 0 | 1 | 3 |
| F_INS_cen | 166 | 797 | 963 | 5.63 | 3.33 | 0 | 3 | 5 |
| ID | 0 | 963 | 963 | 482 | 278.14 | 1 | 241.5 | 482 |
| KAN_KYK | 0 | 963 | 963 | 3.02 | 0.58 | 1 | 3 | 3 |
| KAN_PRD | 0 | 963 | 963 | 2.23 | 0.81 | 1 | 2 | 2 |
| KAN_SEC | 0 | 963 | 963 | 2.28 | 0.82 | 1 | 2 | 2 |
| KAN_SUP | 0 | 963 | 963 | 2.18 | 0.86 | 1 | 2 | 2 |
| KAN_THI | 0 | 963 | 963 | 2.03 | 0.82 | 1 | 1 | 2 |
| PRE | 0 | 963 | 963 | 20.01 | 11.44 | 1 | 12 | 15 |
| SEX_IMP | 143 | 820 | 963 | 3.79 | 1.51 | 1 | 3 | 4 |
| SEX_IMP_num | 143 | 820 | 963 | 3.79 | 1.51 | 1 | 3 | 4 |
| SEX_MAS | 379 | 584 | 963 | 4.27 | 2.83 | 0 | 2 | 5 |
| SEX_MAS_nen | 379 | 584 | 963 | 80.78 | 137.85 | 0 | 2 | 26 |
| SEX_NIN_cen | 340 | 623 | 963 | 10.36 | 18.58 | 0 | 2.5 | 4.5 |
| SEX_NNA | 0 | 963 | 963 | 1.48 | 1.72 | 0 | 0 | 1 |
| SEX_SEX | 407 | 556 | 963 | 3.4 | 2.13 | 0 | 1 | 4 |
| SEX_SEX_nen | 407 | 556 | 963 | 26.26 | 66.56 | 0 | 1 | 12 |
| SPN_FEA | 0 | 963 | 963 | 2.96 | 0.81 | 1 | 3 | 3 |
| SPN_IMP | 0 | 963 | 963 | 3.44 | 0.68 | 1 | 3 | 4 |
| SPN_LIV | 0 | 963 | 963 | 2.88 | 0.8 | 1 | 2 | 3 |
| SPN_THK | 0 | 963 | 963 | 2.84 | 0.77 | 1 | 2 | 3 |
| SPN_UNM | 0 | 963 | 963 | 2.36 | 0.84 | 1 | 2 | 2 |
| SUB_HAP | 0 | 963 | 963 | 6 | 2.35 | 0 | 5 | 6 |
| SUB_SAT | 0 | 963 | 963 | 5.43 | 2.42 | 0 | 4 | 5 |
| SUB_SLP | 0 | 963 | 963 | 5.93 | 2.52 | 0 | 4 | 6 |
| TRU_FRI | 0 | 963 | 963 | 5.05 | 2.94 | 0 | 3 | 5 |
| TRU_OTH | 0 | 963 | 963 | 2.72 | 2.73 | 0 | 0 | 2 |
| TRU_PAR | 0 | 963 | 963 | 6.55 | 3.24 | 0 | 5 | 5 |
| ULT_PRO_FRI | 0 | 963 | 963 | 4.55 | 1.81 | 0 | 4 | 5 |
| ULT_PRO_OTH | 0 | 963 | 963 | 3.13 | 2.38 | 0 | 0 | 4 |
| ULT_PRO_PAR | 0 | 963 | 963 | 5.52 | 2.51 | 0 | 5 | 5 |
| ULT_REC_FRI | 0 | 963 | 963 | 3.44 | 2.03 | 0 | 2 | 4 |
| ULT_REC_OTH | 0 | 963 | 963 | 2.86 | 2.49 | 0 | 0 | 3 |
| ULT_REC_PAR | 0 | 963 | 963 | 3.82 | 2.71 | 0 | 1 | 5 |
| p75 | p100 | hist |
|---|---|---|
| 3 | 4 | ▃▁▇▁▁▆▁▁ |
| 3 | 4 | ▁▁▂▁▁▇▁▃ |
| 3 | 4 | ▂▁▃▁▁▇▁▂ |
| 3 | 4 | ▂▁▅▁▁▇▁▂ |
| 3 | 4 | ▃▁▇▁▁▇▁▂ |
| 5 | 10 | ▆▂▅▇▁▁▁▂ |
| 1 | 10 | ▇▁▁▁▁▁▁▁ |
| 10 | 10 | ▃▁▂▇▁▁▁▆ |
| 5 | 20 | ▇▇▁▁▁▁▁▁ |
| 7 | 20 | ▁▇▃▁▁▁▁▁ |
| 722.5 | 963 | ▇▇▇▇▇▇▇▇ |
| 3 | 4 | ▁▁▁▁▁▇▁▂ |
| 3 | 4 | ▃▁▇▁▁▇▁▁ |
| 3 | 4 | ▃▁▇▁▁▇▁▁ |
| 3 | 4 | ▅▁▇▁▁▆▁▁ |
| 3 | 4 | ▅▁▇▁▁▅▁▁ |
| 27 | 47 | ▃▆▇▃▅▂▂▂ |
| 5 | 7 | ▂▃▅▇▁▆▂▁ |
| 5 | 7 | ▂▃▅▇▁▆▂▁ |
| 7 | 9 | ▇▂▁▅▃▅▆▃ |
| 130 | 730 | ▇▂▁▁▁▁▁▁ |
| 9 | 101 | ▇▁▁▁▁▁▁▁ |
| 3 | 5 | ▇▂▁▂▂▁▂▂ |
| 5 | 9 | ▇▃▃▆▅▅▂▁ |
| 26 | 730 | ▇▁▁▁▁▁▁▁ |
| 3 | 4 | ▁▁▂▁▁▇▁▃ |
| 4 | 4 | ▁▁▁▁▁▆▁▇ |
| 3 | 4 | ▁▁▃▁▁▇▁▃ |
| 3 | 4 | ▁▁▂▁▁▇▁▂ |
| 3 | 4 | ▃▁▇▁▁▇▁▂ |
| 8 | 10 | ▂▁▂▇▅▆▅▅ |
| 7 | 10 | ▂▂▃▇▃▅▃▂ |
| 8 | 10 | ▁▁▃▇▃▅▅▅ |
| 6 | 10 | ▂▂▃▇▁▁▁▃ |
| 5 | 10 | ▇▂▃▅▁▁▁▁ |
| 10 | 10 | ▂▁▂▆▁▁▁▇ |
| 5 | 10 | ▁▁▁▇▁▁▁▁ |
| 5 | 10 | ▆▁▂▇▁▁▁▁ |
| 6 | 10 | ▁▁▁▇▁▁▁▂ |
| 5 | 10 | ▃▂▃▇▁▁▁▁ |
| 5 | 10 | ▇▂▂▇▁▁▁▁ |
| 5 | 10 | ▅▁▂▇▁▁▁▂ |
Skim summary statistics
n obs: 963
n variables: 54
─ Variable type:character ──────────────────────────────
variable missing complete n min max empty n_unique
F_FGR 0 963 963 7 9 0 11
F_GEN 0 963 963 5 5 0 7
F_GEN_2 0 963 963 3 5 0 12
F_INK 0 963 963 2 10 0 10
F_INS 0 963 963 2 10 0 11
F_SEX 0 963 963 4 6 0 3
F_TAN 0 963 963 5 15 0 13
SEX_NIN 340 623 963 5 10 0 12
SEX_OBJ 157 806 963 4 5 0 4
─ Variable type:factor ────────────────────────────────
variable missing complete n n_unique
ARE 0 963 963 8
CHI 0 963 963 2
MAR 0 963 963 2
top_counts ordered
Kan: 376, Kin: 165, Chu: 148, Kyu: 92 FALSE
Chi: 495, NoC: 468, NA: 0 FALSE
Mar: 569, Not: 394, NA: 0 FALSE
─ Variable type:numeric ───────────────────────────────
variable missing complete n mean sd p0 p25 p50 p75 p100
DED_JIG 0 963 963 2.32 0.83 1 2 2 3 4
DED_KIS 0 963 963 3 0.77 1 3 3 3 4
DED_PUN 0 963 963 2.74 0.84 1 2 3 3 4
DED_SHI 0 963 963 2.54 0.87 1 2 3 3 4
DED_TEN 0 963 963 2.41 0.84 1 2 2 3 4
DIC_FRI 0 963 963 3.47 2.62 0 1 3 5 10
DIC_OTH 0 963 963 0.9 1.85 0 0 0 1 10
DIC_PAR 0 963 963 5.65 3.34 0 4 5 10 10
F_INK_cen 67 896 963 2.83 2.6 0 1 3 5 20
F_INS_cen 166 797 963 5.63 3.33 0 3 5 7 20
ID 0 963 963 482 278.14 1 241.5 482 722.5 963
KAN_KYK 0 963 963 3.02 0.58 1 3 3 3 4
KAN_PRD 0 963 963 2.23 0.81 1 2 2 3 4
KAN_SEC 0 963 963 2.28 0.82 1 2 2 3 4
KAN_SUP 0 963 963 2.18 0.86 1 2 2 3 4
KAN_THI 0 963 963 2.03 0.82 1 1 2 3 4
PRE 0 963 963 20.01 11.44 1 12 15 27 47
SEX_IMP 143 820 963 3.79 1.51 1 3 4 5 7
SEX_IMP_num 143 820 963 3.79 1.51 1 3 4 5 7
SEX_MAS 379 584 963 4.27 2.83 0 2 5 7 9
SEX_MAS_nen 379 584 963 80.78 137.85 0 2 26 130 730
SEX_NIN_cen 340 623 963 10.36 18.58 0 2.5 4.5 9 101
SEX_NNA 0 963 963 1.48 1.72 0 0 1 3 5
SEX_SEX 407 556 963 3.4 2.13 0 1 4 5 9
SEX_SEX_nen 407 556 963 26.26 66.56 0 1 12 26 730
SPN_FEA 0 963 963 2.96 0.81 1 3 3 3 4
SPN_IMP 0 963 963 3.44 0.68 1 3 4 4 4
SPN_LIV 0 963 963 2.88 0.8 1 2 3 3 4
SPN_THK 0 963 963 2.84 0.77 1 2 3 3 4
SPN_UNM 0 963 963 2.36 0.84 1 2 2 3 4
SUB_HAP 0 963 963 6 2.35 0 5 6 8 10
SUB_SAT 0 963 963 5.43 2.42 0 4 5 7 10
SUB_SLP 0 963 963 5.93 2.52 0 4 6 8 10
TRU_FRI 0 963 963 5.05 2.94 0 3 5 6 10
TRU_OTH 0 963 963 2.72 2.73 0 0 2 5 10
TRU_PAR 0 963 963 6.55 3.24 0 5 5 10 10
ULT_PRO_FRI 0 963 963 4.55 1.81 0 4 5 5 10
ULT_PRO_OTH 0 963 963 3.13 2.38 0 0 4 5 10
ULT_PRO_PAR 0 963 963 5.52 2.51 0 5 5 6 10
ULT_REC_FRI 0 963 963 3.44 2.03 0 2 4 5 10
ULT_REC_OTH 0 963 963 2.86 2.49 0 0 3 5 10
ULT_REC_PAR 0 963 963 3.82 2.71 0 1 5 5 10
hist
▃▁▇▁▁▆▁▁
▁▁▂▁▁▇▁▃
▂▁▃▁▁▇▁▂
▂▁▅▁▁▇▁▂
▃▁▇▁▁▇▁▂
▆▂▅▇▁▁▁▂
▇▁▁▁▁▁▁▁
▃▁▂▇▁▁▁▆
▇▇▁▁▁▁▁▁
▁▇▃▁▁▁▁▁
▇▇▇▇▇▇▇▇
▁▁▁▁▁▇▁▂
▃▁▇▁▁▇▁▁
▃▁▇▁▁▇▁▁
▅▁▇▁▁▆▁▁
▅▁▇▁▁▅▁▁
▃▆▇▃▅▂▂▂
▂▃▅▇▁▆▂▁
▂▃▅▇▁▆▂▁
▇▂▁▅▃▅▆▃
▇▂▁▁▁▁▁▁
▇▁▁▁▁▁▁▁
▇▂▁▂▂▁▂▂
▇▃▃▆▅▅▂▁
▇▁▁▁▁▁▁▁
▁▁▂▁▁▇▁▃
▁▁▁▁▁▆▁▇
▁▁▃▁▁▇▁▃
▁▁▂▁▁▇▁▂
▃▁▇▁▁▇▁▂
▂▁▂▇▅▆▅▅
▂▂▃▇▃▅▃▂
▁▁▃▇▃▅▅▅
▂▂▃▇▁▁▁▃
▇▂▃▅▁▁▁▁
▂▁▂▆▁▁▁▇
▁▁▁▇▁▁▁▁
▆▁▂▇▁▁▁▁
▁▁▁▇▁▁▁▂
▃▂▃▇▁▁▁▁
▇▂▂▇▁▁▁▁
▅▁▂▇▁▁▁▂
Descriptive Statistics
exdataset
N: 963
Mean Std.Dev Min Q1 Median Q3 Max MAD IQR
----------------- -------- --------- ------ -------- -------- -------- -------- -------- --------
DED_JIG 2.32 0.83 1.00 2.00 2.00 3.00 4.00 1.48 1.00
DED_KIS 3.00 0.77 1.00 3.00 3.00 3.00 4.00 0.00 0.00
DED_PUN 2.74 0.84 1.00 2.00 3.00 3.00 4.00 0.00 1.00
DED_SHI 2.54 0.87 1.00 2.00 3.00 3.00 4.00 1.48 1.00
DED_TEN 2.41 0.84 1.00 2.00 2.00 3.00 4.00 1.48 1.00
DIC_FRI 3.47 2.62 0.00 1.00 3.00 5.00 10.00 2.97 4.00
DIC_OTH 0.90 1.85 0.00 0.00 0.00 1.00 10.00 0.00 1.00
DIC_PAR 5.65 3.34 0.00 4.00 5.00 10.00 10.00 4.45 6.00
F_INK_cen 2.83 2.60 0.00 1.00 3.00 5.00 20.00 2.97 4.00
F_INS_cen 5.63 3.33 0.00 3.00 5.00 7.00 20.00 2.97 4.00
ID 482.00 278.14 1.00 241.00 482.00 723.00 963.00 357.31 481.00
KAN_KYK 3.02 0.58 1.00 3.00 3.00 3.00 4.00 0.00 0.00
KAN_PRD 2.23 0.81 1.00 2.00 2.00 3.00 4.00 1.48 1.00
KAN_SEC 2.28 0.82 1.00 2.00 2.00 3.00 4.00 1.48 1.00
KAN_SUP 2.18 0.86 1.00 2.00 2.00 3.00 4.00 1.48 1.00
KAN_THI 2.03 0.82 1.00 1.00 2.00 3.00 4.00 1.48 2.00
PRE 20.01 11.44 1.00 12.00 15.00 27.00 47.00 11.86 15.00
SEX_IMP 3.79 1.51 1.00 3.00 4.00 5.00 7.00 1.48 2.00
SEX_IMP_num 3.79 1.51 1.00 3.00 4.00 5.00 7.00 1.48 2.00
SEX_MAS 4.27 2.83 0.00 2.00 5.00 7.00 9.00 2.97 5.00
SEX_MAS_nen 80.78 137.85 0.00 2.00 26.00 130.00 730.00 38.55 128.00
SEX_NIN_cen 10.36 18.58 0.00 2.50 4.50 9.00 101.00 5.19 6.50
SEX_NNA 1.48 1.72 0.00 0.00 1.00 3.00 5.00 1.48 3.00
SEX_SEX 3.40 2.13 0.00 1.00 4.00 5.00 9.00 2.97 4.00
SEX_SEX_nen 26.26 66.56 0.00 1.00 12.00 26.00 730.00 16.31 25.00
SPN_FEA 2.96 0.81 1.00 3.00 3.00 3.00 4.00 0.00 0.00
SPN_IMP 3.44 0.68 1.00 3.00 4.00 4.00 4.00 0.00 1.00
SPN_LIV 2.88 0.80 1.00 2.00 3.00 3.00 4.00 0.00 1.00
SPN_THK 2.84 0.77 1.00 2.00 3.00 3.00 4.00 0.00 1.00
SPN_UNM 2.36 0.84 1.00 2.00 2.00 3.00 4.00 1.48 1.00
SUB_HAP 6.00 2.35 0.00 5.00 6.00 8.00 10.00 2.97 3.00
SUB_SAT 5.43 2.42 0.00 4.00 5.00 7.00 10.00 2.97 3.00
SUB_SLP 5.93 2.52 0.00 4.00 6.00 8.00 10.00 2.97 4.00
TRU_FRI 5.05 2.94 0.00 3.00 5.00 6.00 10.00 2.97 3.00
TRU_OTH 2.72 2.73 0.00 0.00 2.00 5.00 10.00 2.97 5.00
TRU_PAR 6.55 3.24 0.00 5.00 5.00 10.00 10.00 4.45 5.00
ULT_PRO_FRI 4.55 1.81 0.00 4.00 5.00 5.00 10.00 0.00 1.00
ULT_PRO_OTH 3.13 2.38 0.00 0.00 4.00 5.00 10.00 1.48 5.00
ULT_PRO_PAR 5.52 2.51 0.00 5.00 5.00 6.00 10.00 0.00 1.00
ULT_REC_FRI 3.44 2.03 0.00 2.00 4.00 5.00 10.00 1.48 3.00
ULT_REC_OTH 2.86 2.49 0.00 0.00 3.00 5.00 10.00 2.97 5.00
ULT_REC_PAR 3.82 2.71 0.00 1.00 5.00 5.00 10.00 2.97 4.00
Table: Table continues below
CV Skewness SE.Skewness Kurtosis N.Valid Pct.Valid
----------------- ------ ---------- ------------- ---------- --------- -----------
DED_JIG 0.36 0.12 0.08 -0.55 963.00 100.00
DED_KIS 0.26 -0.82 0.08 0.81 963.00 100.00
DED_PUN 0.31 -0.51 0.08 -0.23 963.00 100.00
DED_SHI 0.34 -0.25 0.08 -0.64 963.00 100.00
DED_TEN 0.35 -0.07 0.08 -0.64 963.00 100.00
DIC_FRI 0.75 0.64 0.08 0.30 963.00 100.00
DIC_OTH 2.05 2.79 0.08 8.83 963.00 100.00
DIC_PAR 0.59 -0.10 0.08 -1.02 963.00 100.00
F_INK_cen 0.92 1.33 0.08 3.17 896.00 93.04
F_INS_cen 0.59 1.33 0.09 2.98 797.00 82.76
ID 0.58 0.00 0.08 -1.20 963.00 100.00
KAN_KYK 0.19 -0.70 0.08 2.48 963.00 100.00
KAN_PRD 0.36 0.02 0.08 -0.74 963.00 100.00
KAN_SEC 0.36 -0.01 0.08 -0.73 963.00 100.00
KAN_SUP 0.40 0.26 0.08 -0.66 963.00 100.00
KAN_THI 0.40 0.35 0.08 -0.59 963.00 100.00
PRE 0.57 0.49 0.08 -0.61 963.00 100.00
SEX_IMP 0.40 -0.06 0.09 -0.47 820.00 85.15
SEX_IMP_num 0.40 -0.06 0.09 -0.47 820.00 85.15
SEX_MAS 0.66 -0.31 0.10 -1.25 584.00 60.64
SEX_MAS_nen 1.71 2.78 0.10 8.65 584.00 60.64
SEX_NIN_cen 1.79 3.45 0.10 12.14 623.00 64.69
SEX_NNA 1.16 0.77 0.08 -0.82 963.00 100.00
SEX_SEX 0.63 0.07 0.10 -0.95 556.00 57.74
SEX_SEX_nen 2.54 7.48 0.10 69.54 556.00 57.74
SPN_FEA 0.27 -0.68 0.08 0.25 963.00 100.00
SPN_IMP 0.20 -1.31 0.08 2.29 963.00 100.00
SPN_LIV 0.28 -0.53 0.08 0.03 963.00 100.00
SPN_THK 0.27 -0.58 0.08 0.26 963.00 100.00
SPN_UNM 0.35 0.02 0.08 -0.64 963.00 100.00
SUB_HAP 0.39 -0.43 0.08 -0.27 963.00 100.00
SUB_SAT 0.45 -0.26 0.08 -0.53 963.00 100.00
SUB_SLP 0.42 -0.14 0.08 -0.76 963.00 100.00
TRU_FRI 0.58 0.37 0.08 -0.63 963.00 100.00
TRU_OTH 1.00 1.07 0.08 0.70 963.00 100.00
TRU_PAR 0.49 -0.32 0.08 -1.13 963.00 100.00
ULT_PRO_FRI 0.40 -0.02 0.08 2.75 963.00 100.00
ULT_PRO_OTH 0.76 0.10 0.08 -0.59 963.00 100.00
ULT_PRO_PAR 0.46 0.22 0.08 0.14 963.00 100.00
ULT_REC_FRI 0.59 -0.03 0.08 0.07 963.00 100.00
ULT_REC_OTH 0.87 0.55 0.08 -0.20 963.00 100.00
ULT_REC_PAR 0.71 0.41 0.08 -0.08 963.00 100.00
Data Frame Summary
exdataset
Dimensions: 963 x 54
Duplicates: 0
-------------------------------------------------------------------------------------------------------------------------------------
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
---- -------------- --------------------------- ---------------------- ---------------------------------------- ---------- ----------
1 SUB_HAP Mean (sd) : 6 (2.3) 11 distinct values : 963 0
[numeric] min < med < max: : . : : (100%) (0%)
0 < 6 < 10 . : : : :
IQR (CV) : 3 (0.4) : : : : : : . .
: : : : : : : : : :
2 SUB_SAT Mean (sd) : 5.4 (2.4) 11 distinct values : : 963 0
[numeric] min < med < max: . : . : : (100%) (0%)
0 < 5 < 10 : : : : : :
IQR (CV) : 3 (0.4) : . : : : : : : .
: : : : : : : : : :
3 SUB_SLP Mean (sd) : 5.9 (2.5) 11 distinct values : . : 963 0
[numeric] min < med < max: : : : : : : . (100%) (0%)
0 < 6 < 10 : : : : : : . :
IQR (CV) : 4 (0.4) . . : : : : : : : :
: : : : : : : : : :
4 DIC_PAR Mean (sd) : 5.6 (3.3) 11 distinct values : 963 0
[numeric] min < med < max: : : (100%) (0%)
0 < 5 < 10 : :
IQR (CV) : 6 (0.6) : : :
: . : . : . . . :
5 DIC_FRI Mean (sd) : 3.5 (2.6) 11 distinct values : 963 0
[numeric] min < med < max: : : (100%) (0%)
0 < 3 < 10 : : :
IQR (CV) : 4 (0.8) : . : :
: : : . : :
6 DIC_OTH Mean (sd) : 0.9 (1.9) 0 : 666 (69.2%) IIIIIIIIIIIII 963 0
[numeric] min < med < max: 1 : 96 (10.0%) I (100%) (0%)
0 < 0 < 10 2 : 69 ( 7.2%) I
IQR (CV) : 1 (2) 3 : 55 ( 5.7%) I
4 : 4 ( 0.4%)
5 : 51 ( 5.3%) I
6 : 3 ( 0.3%)
7 : 1 ( 0.1%)
8 : 2 ( 0.2%)
10 : 16 ( 1.7%)
7 ULT_PRO_PAR Mean (sd) : 5.5 (2.5) 11 distinct values : 963 0
[numeric] min < med < max: : (100%) (0%)
0 < 5 < 10 :
IQR (CV) : 1 (0.5) : .
. . : . . :
8 ULT_PRO_FRI Mean (sd) : 4.5 (1.8) 0 : 47 ( 4.9%) 963 0
[numeric] min < med < max: 1 : 24 ( 2.5%) (100%) (0%)
0 < 5 < 10 2 : 40 ( 4.2%)
IQR (CV) : 1 (0.4) 3 : 85 ( 8.8%) I
4 : 59 ( 6.1%) I
5 : 634 (65.8%) IIIIIIIIIIIII
6 : 21 ( 2.2%)
7 : 8 ( 0.8%)
8 : 10 ( 1.0%)
10 : 35 ( 3.6%)
9 ULT_PRO_OTH Mean (sd) : 3.1 (2.4) 11 distinct values : 963 0
[numeric] min < med < max: : : (100%) (0%)
0 < 4 < 10 : :
IQR (CV) : 5 (0.8) : :
: . : . :
10 ULT_REC_PAR Mean (sd) : 3.8 (2.7) 11 distinct values : 963 0
[numeric] min < med < max: . : (100%) (0%)
0 < 5 < 10 : :
IQR (CV) : 4 (0.7) : . :
: . : . : :
11 ULT_REC_FRI Mean (sd) : 3.4 (2) 0 : 116 (12.0%) II 963 0
[numeric] min < med < max: 1 : 95 ( 9.9%) I (100%) (0%)
0 < 4 < 10 2 : 84 ( 8.7%) I
IQR (CV) : 3 (0.6) 3 : 166 (17.2%) III
4 : 65 ( 6.8%) I
5 : 401 (41.6%) IIIIIIII
6 : 14 ( 1.5%)
7 : 4 ( 0.4%)
8 : 5 ( 0.5%)
10 : 13 ( 1.4%)
12 ULT_REC_OTH Mean (sd) : 2.9 (2.5) 11 distinct values : 963 0
[numeric] min < med < max: : : (100%) (0%)
0 < 3 < 10 : :
IQR (CV) : 5 (0.9) : :
: : : . : .
13 TRU_PAR Mean (sd) : 6.5 (3.2) 11 distinct values : 963 0
[numeric] min < med < max: . : (100%) (0%)
0 < 5 < 10 : :
IQR (CV) : 5 (0.5) : :
: . : . : . . . :
14 TRU_FRI Mean (sd) : 5 (2.9) 11 distinct values : 963 0
[numeric] min < med < max: : (100%) (0%)
0 < 5 < 10 : .
IQR (CV) : 3 (0.6) . : : :
: : : . : . . . :
15 TRU_OTH Mean (sd) : 2.7 (2.7) 11 distinct values : 963 0
[numeric] min < med < max: : (100%) (0%)
0 < 2 < 10 : .
IQR (CV) : 5 (1) : . : :
: : : . : .
16 SPN_UNM Mean (sd) : 2.4 (0.8) 1 : 153 (15.9%) III 963 0
[numeric] min < med < max: 2 : 381 (39.6%) IIIIIII (100%) (0%)
1 < 2 < 4 3 : 355 (36.9%) IIIIIII
IQR (CV) : 1 (0.4) 4 : 74 ( 7.7%) I
17 SPN_THK Mean (sd) : 2.8 (0.8) 1 : 62 ( 6.4%) I 963 0
[numeric] min < med < max: 2 : 186 (19.3%) III (100%) (0%)
1 < 3 < 4 3 : 558 (57.9%) IIIIIIIIIII
IQR (CV) : 1 (0.3) 4 : 157 (16.3%) III
18 SPN_FEA Mean (sd) : 3 (0.8) 1 : 64 ( 6.7%) I 963 0
[numeric] min < med < max: 2 : 142 (14.8%) II (100%) (0%)
1 < 3 < 4 3 : 524 (54.4%) IIIIIIIIII
IQR (CV) : 0 (0.3) 4 : 233 (24.2%) IIII
19 SPN_LIV Mean (sd) : 2.9 (0.8) 1 : 61 ( 6.3%) I 963 0
[numeric] min < med < max: 2 : 188 (19.5%) III (100%) (0%)
1 < 3 < 4 3 : 520 (54.0%) IIIIIIIIII
IQR (CV) : 1 (0.3) 4 : 194 (20.2%) IIII
20 SPN_IMP Mean (sd) : 3.4 (0.7) 1 : 25 ( 2.6%) 963 0
[numeric] min < med < max: 2 : 26 ( 2.7%) (100%) (0%)
1 < 4 < 4 3 : 412 (42.8%) IIIIIIII
IQR (CV) : 1 (0.2) 4 : 500 (51.9%) IIIIIIIIII
21 KAN_SEC Mean (sd) : 2.3 (0.8) 1 : 182 (18.9%) III 963 0
[numeric] min < med < max: 2 : 382 (39.7%) IIIIIII (100%) (0%)
1 < 2 < 4 3 : 351 (36.4%) IIIIIII
IQR (CV) : 1 (0.4) 4 : 48 ( 5.0%)
22 KAN_THI Mean (sd) : 2 (0.8) 1 : 273 (28.3%) IIIII 963 0
[numeric] min < med < max: 2 : 421 (43.7%) IIIIIIII (100%) (0%)
1 < 2 < 4 3 : 232 (24.1%) IIII
IQR (CV) : 2 (0.4) 4 : 37 ( 3.8%)
23 KAN_SUP Mean (sd) : 2.2 (0.9) 1 : 224 (23.3%) IIII 963 0
[numeric] min < med < max: 2 : 404 (41.9%) IIIIIIII (100%) (0%)
1 < 2 < 4 3 : 271 (28.1%) IIIII
IQR (CV) : 1 (0.4) 4 : 64 ( 6.7%) I
24 KAN_PRD Mean (sd) : 2.2 (0.8) 1 : 192 (19.9%) III 963 0
[numeric] min < med < max: 2 : 395 (41.0%) IIIIIIII (100%) (0%)
1 < 2 < 4 3 : 336 (34.9%) IIIIII
IQR (CV) : 1 (0.4) 4 : 40 ( 4.2%)
25 KAN_KYK Mean (sd) : 3 (0.6) 1 : 22 ( 2.3%) 963 0
[numeric] min < med < max: 2 : 85 ( 8.8%) I (100%) (0%)
1 < 3 < 4 3 : 704 (73.1%) IIIIIIIIIIIIII
IQR (CV) : 0 (0.2) 4 : 152 (15.8%) III
26 DED_SHI Mean (sd) : 2.5 (0.9) 1 : 136 (14.1%) II 963 0
[numeric] min < med < max: 2 : 280 (29.1%) IIIII (100%) (0%)
1 < 3 < 4 3 : 440 (45.7%) IIIIIIIII
IQR (CV) : 1 (0.3) 4 : 107 (11.1%) II
27 DED_TEN Mean (sd) : 2.4 (0.8) 1 : 143 (14.8%) II 963 0
[numeric] min < med < max: 2 : 357 (37.1%) IIIIIII (100%) (0%)
1 < 2 < 4 3 : 384 (39.9%) IIIIIII
IQR (CV) : 1 (0.3) 4 : 79 ( 8.2%) I
28 DED_JIG Mean (sd) : 2.3 (0.8) 1 : 154 (16.0%) III 963 0
[numeric] min < med < max: 2 : 418 (43.4%) IIIIIIII (100%) (0%)
1 < 2 < 4 3 : 322 (33.4%) IIIIII
IQR (CV) : 1 (0.4) 4 : 69 ( 7.2%) I
29 DED_KIS Mean (sd) : 3 (0.8) 1 : 61 ( 6.3%) I 963 0
[numeric] min < med < max: 2 : 105 (10.9%) II (100%) (0%)
1 < 3 < 4 3 : 574 (59.6%) IIIIIIIIIII
IQR (CV) : 0 (0.3) 4 : 223 (23.2%) IIII
30 DED_PUN Mean (sd) : 2.7 (0.8) 1 : 99 (10.3%) II 963 0
[numeric] min < med < max: 2 : 204 (21.2%) IIII (100%) (0%)
1 < 3 < 4 3 : 510 (53.0%) IIIIIIIIII
IQR (CV) : 1 (0.3) 4 : 150 (15.6%) III
31 SEX_IMP Mean (sd) : 3.8 (1.5) 1 : 72 ( 8.8%) I 820 143
[numeric] min < med < max: 2 : 102 (12.4%) II (85.15%) (14.85%)
1 < 4 < 7 3 : 140 (17.1%) III
IQR (CV) : 2 (0.4) 4 : 247 (30.1%) IIIIII
5 : 165 (20.1%) IIII
6 : 61 ( 7.4%) I
7 : 33 ( 4.0%)
32 SEX_MAS Mean (sd) : 4.3 (2.8) 0 : 120 (20.5%) IIII 584 379
[numeric] min < med < max: 1 : 24 ( 4.1%) (60.64%) (39.36%)
0 < 5 < 9 2 : 33 ( 5.7%) I
IQR (CV) : 5 (0.7) 3 : 22 ( 3.8%)
4 : 82 (14.0%) II
5 : 51 ( 8.7%) I
6 : 84 (14.4%) II
7 : 108 (18.5%) III
8 : 48 ( 8.2%) I
9 : 12 ( 2.1%)
33 SEX_SEX Mean (sd) : 3.4 (2.1) 0 : 51 ( 9.2%) I 556 407
[numeric] min < med < max: 1 : 94 (16.9%) III (57.74%) (42.26%)
0 < 4 < 9 2 : 58 (10.4%) II
IQR (CV) : 4 (0.6) 3 : 68 (12.2%) II
4 : 103 (18.5%) III
5 : 73 (13.1%) II
6 : 76 (13.7%) II
7 : 26 ( 4.7%)
8 : 4 ( 0.7%)
9 : 3 ( 0.5%)
34 SEX_OBJ 1. Dosei 9 ( 1.1%) 806 157
[character] 2. Hoka 14 ( 1.7%) (83.7%) (16.3%)
3. Isei 745 (92.4%) IIIIIIIIIIIIIIIIII
4. Ryoho 38 ( 4.7%)
35 SEX_NIN 1. N2-3nin 128 (20.5%) IIII 623 340
[character] 2. N1nin 99 (15.9%) III (64.69%) (35.31%)
3. N4-5nin 89 (14.3%) II
4. N5-7nin 74 (11.9%) II
5. N8-10nin 64 (10.3%) II
6. N11-15nin 46 ( 7.4%) I
7. N0nin 38 ( 6.1%) I
8. N31-50nin 20 ( 3.2%)
9. N16-20nin 19 ( 3.0%)
10. N41-100nin 18 ( 2.9%)
[ 2 others ] 28 ( 4.5%)
36 SEX_NNA Mean (sd) : 1.5 (1.7) 0 : 457 (47.5%) IIIIIIIII 963 0
[numeric] min < med < max: 1 : 112 (11.6%) II (100%) (0%)
0 < 1 < 5 2 : 116 (12.0%) II
IQR (CV) : 3 (1.2) 3 : 110 (11.4%) II
4 : 88 ( 9.1%) I
5 : 80 ( 8.3%) I
37 SEX_IMP_num Mean (sd) : 3.8 (1.5) 1 : 72 ( 8.8%) I 820 143
[numeric] min < med < max: 2 : 102 (12.4%) II (85.15%) (14.85%)
1 < 4 < 7 3 : 140 (17.1%) III
IQR (CV) : 2 (0.4) 4 : 247 (30.1%) IIIIII
5 : 165 (20.1%) IIII
6 : 61 ( 7.4%) I
7 : 33 ( 4.0%)
38 SEX_MAS_nen Mean (sd) : 80.8 (137.8) 0 : 120 (20.5%) IIII 584 379
[numeric] min < med < max: 1 : 24 ( 4.1%) (60.64%) (39.36%)
0 < 26 < 730 2 : 33 ( 5.7%) I
IQR (CV) : 128 (1.7) 4 : 22 ( 3.8%)
12 : 82 (14.0%) II
26 : 51 ( 8.7%) I
52 : 84 (14.4%) II
130 : 108 (18.5%) III
365 : 48 ( 8.2%) I
730 : 12 ( 2.1%)
39 SEX_SEX_nen Mean (sd) : 26.3 (66.6) 0 : 51 ( 9.2%) I 556 407
[numeric] min < med < max: 1 : 94 (16.9%) III (57.74%) (42.26%)
0 < 12 < 730 2 : 58 (10.4%) II
IQR (CV) : 25 (2.5) 4 : 68 (12.2%) II
12 : 103 (18.5%) III
26 : 73 (13.1%) II
52 : 76 (13.7%) II
130 : 26 ( 4.7%)
365 : 4 ( 0.7%)
730 : 3 ( 0.5%)
40 SEX_NIN_cen Mean (sd) : 10.4 (18.6) 12 distinct values : 623 340
[numeric] min < med < max: : (64.69%) (35.31%)
0 < 4.5 < 101 :
IQR (CV) : 6.5 (1.8) :
: .
41 F_SEX 1. female 552 (57.3%) IIIIIIIIIII 963 0
[character] 2. male 405 (42.1%) IIIIIIII (100%) (0%)
3. other 6 ( 0.6%)
42 F_GEN_2 1. 40_bf 220 (22.8%) IIII 963 0
[character] 2. 30_af 204 (21.2%) IIII (100%) (0%)
3. 30_bf 157 (16.3%) III
4. 40_af 138 (14.3%) II
5. 20_af 92 ( 9.6%) I
6. 50_bf 77 ( 8.0%) I
7. 20_bf 48 ( 5.0%)
8. 60_bf 13 ( 1.3%)
9. 10_af 7 ( 0.7%)
10. 60_af 5 ( 0.5%)
[ 2 others ] 2 ( 0.2%)
43 F_GEN 1. 10dai 8 ( 0.8%) 963 0
[character] 2. 20dai 140 (14.5%) II (100%) (0%)
3. 30dai 361 (37.5%) IIIIIII
4. 40dai 358 (37.2%) IIIIIII
5. 50dai 77 ( 8.0%) I
6. 60dai 18 ( 1.9%)
7. 70dai 1 ( 0.1%)
44 F_FGR 1. Chu_Sotsu 15 ( 1.6%) 963 0
[character] 2. Dai_Chu 34 ( 3.5%) (100%) (0%)
3. Dai_Sotsu 384 (39.9%) IIIIIII
4. Doc_Chu 2 ( 0.2%)
5. Doc_Shu 8 ( 0.8%)
6. Kou_Chu 18 ( 1.9%)
7. Kou_Sotsu 240 (24.9%) IIII
8. Mas_Chu 2 ( 0.2%)
9. Mas_Shu 43 ( 4.5%)
10. Sen_Chu 21 ( 2.2%)
11. Sen_Sotsu 196 (20.3%) IIII
45 F_INK 1. Unknown 67 ( 7.0%) I 963 0
[character] 2. y0 168 (17.4%) III (100%) (0%)
3. y1-200 232 (24.1%) IIII
4. y1000-1200 9 ( 0.9%)
5. y1200-1500 5 ( 0.5%)
6. y200-400 236 (24.5%) IIII
7. y2000- 1 ( 0.1%)
8. y400-600 174 (18.1%) III
9. y600-800 51 ( 5.3%) I
10. y800-1000 20 ( 2.1%)
46 F_INS 1. Unknown 166 (17.2%) III 963 0
[character] 2. y0 7 ( 0.7%) (100%) (0%)
3. y1-200 64 ( 6.7%) I
4. y1000-1200 38 ( 4.0%)
5. y1200-1500 22 ( 2.3%)
6. y1500-2000 6 ( 0.6%)
7. y200-400 192 (19.9%) III
8. y2000- 7 ( 0.7%)
9. y400-600 240 (24.9%) IIII
10. y600-800 151 (15.7%) III
11. y800-1000 70 ( 7.3%) I
47 F_INK_cen Mean (sd) : 2.8 (2.6) 0.00 : 168 (18.8%) III 896 67
[numeric] min < med < max: 1.00 : 232 (25.9%) IIIII (93.04%) (6.96%)
0 < 3 < 20 3.00 : 236 (26.3%) IIIII
IQR (CV) : 4 (0.9) 5.00 : 174 (19.4%) III
7.00 : 51 ( 5.7%) I
9.00 : 20 ( 2.2%)
11.00 : 9 ( 1.0%)
13.50 : 5 ( 0.6%)
20.00 : 1 ( 0.1%)
48 F_INS_cen Mean (sd) : 5.6 (3.3) 0.00 : 7 ( 0.9%) 797 166
[numeric] min < med < max: 1.00 : 64 ( 8.0%) I (82.76%) (17.24%)
0 < 5 < 20 3.00 : 192 (24.1%) IIII
IQR (CV) : 4 (0.6) 5.00 : 240 (30.1%) IIIIII
7.00 : 151 (18.9%) III
9.00 : 70 ( 8.8%) I
11.00 : 38 ( 4.8%)
13.50 : 22 ( 2.8%)
17.50 : 6 ( 0.8%)
20.00 : 7 ( 0.9%)
49 F_TAN 1. PC(Windows) 379 (39.4%) IIIIIII 963 0
[character] 2. SMA(android) 270 (28.0%) IIIII (100%) (0%)
3. SMA(iOS_iPhone) 196 (20.4%) IIII
4. Tab(iOS_iPad) 31 ( 3.2%)
5. PC(Mac) 28 ( 2.9%)
6. Tab(android) 28 ( 2.9%)
7. SMA(Windows) 10 ( 1.0%)
8. Tab(Windows) 7 ( 0.7%)
9. Other 4 ( 0.4%)
10. PC(Other) 4 ( 0.4%)
[ 3 others ] 6 ( 0.6%)
50 ARE 1. Kanto 376 (39.0%) IIIIIII 963 0
[factor] 2. Hokkaido 35 ( 3.6%) (100%) (0%)
3. Tohoku 64 ( 6.7%) I
4. Chubu 148 (15.4%) III
5. Kinki 165 (17.1%) III
6. Chugoku 65 ( 6.8%) I
7. Shikoku 18 ( 1.9%)
8. Kyushu 92 ( 9.6%) I
51 PRE Mean (sd) : 20 (11.4) 47 distinct values : 963 0
[numeric] min < med < max: : (100%) (0%)
1 < 15 < 47 : .
IQR (CV) : 15 (0.6) : . :
: : : . : : . . : .
52 MAR 1. NotMarried 394 (40.9%) IIIIIIII 963 0
[factor] 2. Married 569 (59.1%) IIIIIIIIIII (100%) (0%)
53 CHI 1. NoChild 468 (48.6%) IIIIIIIII 963 0
[factor] 2. Child 495 (51.4%) IIIIIIIIII (100%) (0%)
54 ID Mean (sd) : 482 (278.1) 963 distinct values : : : : : : : : : : 963 0
[numeric] min < med < max: (Integer sequence) : : : : : : : : : : (100%) (0%)
1 < 482 < 963 : : : : : : : : : :
IQR (CV) : 481 (0.6) : : : : : : : : : :
: : : : : : : : : :
-------------------------------------------------------------------------------------------------------------------------------------
次回までにご自身で分析してみたいテーマ(回帰分析1つ)+(t検定1つ)+(分散分析1つ)の帰無仮説と対立仮説を考えてきてください.
以下の問題を解きましょう.
ダウンロードはコチラから
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |
---
title: "データ解析論I第3講"
output:
flexdashboard::flex_dashboard:
vertical-layout: scroll
orientation: columns
source_code: embed
theme: journal
toc: true
toc_depth: 2
fig_mobile: true
highlight: pygments
css: styles_customized.css
---
```{r setup, include=FALSE}
library(flexdashboard)
library(readr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
library(ggplot2)
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
# 講義資料
## メイン資料 {.tabset .tabset-fade}
### 今日の資料はコチラから.
スマホで見る方は**QRコード**を読み込んでください
### 講義資料
#### 平均値・分散・標準偏差とは?
* 平均値:全てのデータを足して割ったもの.一般的に代表値(データ全体を表している数値)として扱われる.
* 分散:平均値とそれぞれの値の差を求めて2乗して,合計したものをデータの個数で割ったもの.データの散らばり具合を示す数値であり,分散が大きければ大きいほど,データが散らばっていることを示す.
- $\sigma^2$ という記号で表される.
- \((分散)=\Sigma\{(データの値)-(平均値)\}^2/(データの個数)\)
* 標準偏差:分散の平方根.通常の長さのばらつきを評価する際には同じ単位で理解したほうがわかりやすいために用いる.
- $\sigma$ という記号で表される.
* その他,重要な指標
- 最小値:そのデータの中で最も小さい値
- 第一四分位数(25\%パーセンタイル値):最小値と中央値の間の中央値
- 中央値(第二四分位数):データを大きい(小さい)順に並べたとき,真ん中の値のこと(median).外れ値がある時に代表値として用いられる.
- 奇数の場合:ちょうど真ん中が存在する.
- 偶数の場合:真ん中の数字2つの平均値を中央値とする.
- 最頻値:データの中で最も多く出てくる値のこと(mode).因子データの際に代表値として使われる.
- 第三四分位数(75\%パーセンタイル値):中央値と最大値の間の中央値
- 最大値:そのデータの中で最も大きい数
- 以下の2つは参考までに.
- 平均偏差:「平均からの偏差」の絶対値の平均
- 範囲:最大値から最小値の間.引き算で求められる.
##### 平均値の計算
* 7人の学生の体重が50, 60, 85, 70, 80, 67, 66kgであったする.これらの学生の体重の平均値を求めよ.
```{r echo=TRUE}
# 平均値=(それぞれのデータの値の合計)/(データの個数)
(50+60+85+70+80+67+66)/7
```
#### オブジェクト指向
##### 「オブジェクト」とは
* 「オブジェクト」:データやモデル式などを入れる「何でも箱」
- Rではモデル式,データなどをオブジェクトに入れて考える
- 数式やデータをいちいち書くのは大変...
- オブジェクトに入れることを「代入する」と言う
#### データセットを作ろう
7人の学生の体重が50, 60, 85, 70, 80, 67, 66kgであったする.このデータを変数名"weight"に代入する.
```{r}
weight<-c(50, 60, 85, 70, 80, 67, 66)
```
#### 演習:
同じ7人の学生の身長が155, 164, 182, 165, 177, 177, 172cmであったとする.このデータを変数名"height"に代入せよ.
#### 記述統計量を色々出してみる.
```{r echo=T}
sum(weight)/7 #sum()という関数で合計を算出できる.
sum(weight)/length(weight) #length()という関数でデータの個数を数えてくれる.
mean(weight) #実はmean()という関数を使うと一発で出てしまう.
median(weight) #中央値はmedian()という関数で出せる.
table(weight) #最頻値はtable()という関数を使って探し出す.ちなみに,"weight"の中に最頻値は存在していない.(全てが最頻値=1)
```
#### 演習:
変数名"height"の合計・個数・平均値・中央値・最頻値を求めよ.
#### 体重の記述統計量をまとめて算出する.
```{r echo=T}
summary(weight)
```
左から順番に「最小値,第1四分位数,中央値,平均値,第3四分位数,最大値」を示しています.
#### 演習:
変数名"height"の最小値・第1四分位数・中央値・平均値・第3四分位数・最大値を求めよ.
#### 分散と標準偏差を手計算で算出してみよう
#### 分散を算出する
**$$\sigma^2=\Sigma{((データの値)-(平均値)})^2/(データの個数)$$**
ここでは,分母と分子に分けて話を進めていきましょう.
#### 分子を計算する
#### 体重の平均値をオブジェクトに入れる
"mean_weight"というオブジェクトを作って,体重の平均値を入れます.
```{r echo=T}
mean_weight <- mean(weight)
```
#### 平均からの偏差を求めて,オブジェクトに入れる
(データの値)-(weightの平均値)をして「平均からの偏差」を求めます.結果は"hensa_weight"に代入します.
```{r echo=T}
hensa_weight <- weight - mean_weight
```
##### 「平均からの偏差」を2乗する
「平均からの偏差」を2乗します."hensa_weight2"というオブジェクトを作って代入をしましょう.2乗しないとで全部足すと,数字は0になります.ただし,小数点以下を四捨五入しているので,ここでは完璧に0にはなりませんが,限りなく0に近くなります.
```{r echo=T}
hensa_weight2 <- hensa_weight^2
```
##### 「平均からの偏差の2乗」を全部足してオブジェクトに入れる
これらの5つの値を合計した「平均からの偏差の二乗和」を求めます."sum_hensa_weight2"という名前にしましょう.これで分子は完成です.
```{r echo=T}
sum_hensa_weight2<-sum(hensa_weight2)
```
#### 分母を計算する
##### データの個数を数えてオブジェクトに入れる
今度は分母を算出します.分母はデータ数です,"length_weight"というオブジェクトに代入しましょう.
```{r echo=T}
length_weight<-length(weight)
```
##### 最後の計算
これらを元に分散を算出します.分散は「平均からの偏差の二乗和」/「データ数」ですから,以下の通りに求められます.分散は"vari_weight"というオブジェクトに入れましょう
```{r echo=T}
vari_weight<-sum_hensa_weight2/length_weight
vari_weight
```
##### 標準偏差を算出する
標準偏差は分散の平方根です.平方根を求める関数は"sqrt()"であり,"hyohen_weight"というオブジェクトに入れてあげます.
```{r echo=T}
hyohen_weight <- sqrt(vari_weight)
hyohen_weight
```
#### 2種類の分散と標準偏差
「不偏分散・不偏標準偏差」と「標本分散・標本標準偏差」というものが出てきました.この話を理解するためには「母集団」と「標本」という話を理解する必要があります.ここでは簡単に,その2つの違いについてお話したいと思います.
私達が何かのデータを取る時は,全ての物事のデータを集めることが必ずしもできるとは限りません.例えば,「本学大学生1年生全員を対象としたアンケート」を実施すれば全てのデータを集めることができるかもしれませんが,「日本国民全てを対象としたアンケート」を集計するのは非常に困難です.
例えば,大学1年生の意見を調査することを目的として,1年生全員のデータをそのまま用いる分には問題ないのですが,「日本国民全てを対象としたアンケート」を実施するのはコストの面から考えても現実的ではありません.そのために,全体(母集団)の中から一部を取り出して(標本,サンプル),全体の意見・傾向を「推定」するという手法がとられるようになりました.
このような「推定」という手法を取る時に,"データ数"のままで分析するよりも"データ数-1"で計算してあげたほうがよりよい推定ができる,ということで"データ数-1"をするようになりました.
本当はもう少し細かな数学的な議論もあるのですが,入り込むと帰って来れなくなるのでここまでにしておこうと思います.とりあえず,これからは「不偏分散・不偏標準偏差」が使われることが多い,とだけ覚えておいて下さい.
#### データの整理②
* 実施した調査によるデータ(調査が間に合わなければ,その他のデータ)を用いて,
記述統計量の算出手法について学ぶ.
#### 他のデータを読み込む
今は皆さんに手入力でデータを打ち込んで貰いました.今度は,皆さんには"csvファイル"からデータを読み込んでもらおうと思います.Rの標準のデータ形式以外の他の形式のファイルを読み込むことを「インポート」と言います.
RStudioを使ってもらうと,次の手順でデータを読み込むことができます.
* "Import Dataset"をクリックする.
- "From Text (readr)..."をクリックする.
* "Browse"をクリックする
- 読み込みたいデータを選んで"Open"をクリックする.
- データに併せて,クリックしていく.
- 今回の場合は"First Row as Names"にチェックを入れる.これは1行目が各行のデータ名を示しているためである.
* "Import"をクリックしてデータを読み込む.
* 完了
下のコンソールには3つのコードが書かれます.1番目のコードは"readr"というパッケージを使うように,という指示をしています.2番目のコードは"データを読み込んで,こんな名前にしておいて下さい"を示しており,3番目のコードは"読み込んだデータを表示して下さい"を示している.
なお,このコード(特に上の2つ)は">"を取り除いて上の".R"ファイルに保存しておくと,次回以降便利であることが多い.
その時に,なれるまでこんな感じに説明書きも入れておくと良いと思います..
```
library(readr)
# パッケージreadrを使う
dataset <- read_csv("~/hogehoge/dataset.csv")
# datasetを読み込む
```
なお,この"hogehoge"は読み込んだデータを保存した場所を示しており,人によって異なるので注意してください.
##### 注意:データについて
このデータはゴトウが実施した1926人分のデータのうち,ランダムに選んだ963人分のデータです.このデータの取扱いについては,現在分析中&論文として執筆中なので細心の注意を払って下さい.まだ,データの中身は「データの概要」に記載してあるので,そちらを参考にしてください.
読み込んだデータの記述統計量を算出します.ここでは人々の主観的幸福度について記述統計量を算出します.
#### 主観的幸福度とは:
主観的幸福度とは人が感じている幸福度を示したものです.ここでは「現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?」として尋ねたものです.
昨今では主観的幸福度は「幸福の経済学」という分野で注目されています.
* 詳細は秋学期に開講する「経済と情報行動」の中で触れます.
それでは,記述統計量を出してみましょう.特に,複数列あるデータの場合は\$を使って,「データセットの中のこのデータ列について平均値を出して下さい」というように指定してあげます.
#### 平均・分散・標準偏差・度数など.
```{r dataを読み込む, echo=TRUE}
library(readr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
library(ggplot2)
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
#### **平均値**を算出してみる.
主観的幸福度(SUB_HAP)の平均値
```{r 主観的幸福度の平均値, echo=TRUE}
mean(exdataset$SUB_HAP)
```
#### **分散**を算出してみる.
主観的幸福度(SUB_HAP)の分散
```{r 主観的幸福度の分散, echo=TRUE}
var(exdataset$SUB_HAP)
```
#### **標準偏差**を算出してみる.
主観的幸福度(SUB_HAP)の標準偏差
```{r 主観的幸福度の標準偏差, echo=TRUE}
sd(exdataset$SUB_HAP)
```
主観的幸福度(SUB_HAP)のヒストグラム
```{r 主観的幸福度のヒストグラム, echo=TRUE}
g <- ggplot(exdataset, aes(x = SUB_HAP)) + geom_histogram(binwidth = 1.0)
g
```
#### **頻度**を数えてみる.
```{r 運命の頻度, echo=TRUE}
table(exdataset$SPN_UNM)
```
#### ついでにヒストグラムも作ってみよう
```{r 運命のヒストグラム, echo=TRUE}
g <- ggplot(exdataset, aes(x = SPN_UNM)) + geom_histogram(binwidth = 1.0)
g
```
#### 世代の頻度を数えてみる.
```{r 世代の頻度, echo=TRUE}
table(exdataset$F_GEN)
```
* 基本的には『関数』を用いた計算方法を紹介する.
#### 実はこんなこともできる.
```{r echo = T}
library(skimr)
library(pander)
skim(exdataset) %>% pander(style = 'grid', split.cells = 12)
```
```{r echo = T}
library(skimr)
skim(exdataset)
```
```{r echo = T}
library(summarytools)
descr(exdataset, transpose = TRUE)
```
```{r echo = T}
library(summarytools)
dfSummary(exdataset)
```
### 今日のTake Home Messages
* **記述統計量**はデータの全般的な傾向を把握するために大事な値である.
* 電卓のように1つ1つ計算していくこともできるが,Rでは**関数**を使って一発で計算できる.
- この辺はExcelと一緒.
* 今,何のデータを扱っているのか意識しながら分析しよう.
- これがイメージできれば,Excelより何よりもRは強力な武器になるはず!!
* 基本的には**平均**,**分散**,**標準偏差**を押さえよう.
- さらには**最大値**,**最小値**まで押さえておくと良いでしょう.
* ホントは1つずつ確認するが,分量によっては**関数**を使いこなすことも必要.
- ホントはどんどん便利な関数がたくさんあったり.
```{r}
```
### Rでデータを扱う時に注意すべきこと
* 必ず数字/文字は半角で入力する.
* 日本語は使わずにローマ字を使用する.
* コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める.
- メモする内容は全角でもよい.
* ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない.
- 半角英数字だけにする.
* 慌てずに落ち着いて操作すれば,決して難しくない.
- 1つずつ落ち着いて作業することを心がける.
* 「わからない」ことを恐れない
- 周りの友人に聞いたり,教員に確認したりしよう.
* 文字化け対策に**[こちら](https://docs.google.com/document/d/1CYF6LeFeGV9dTWHGuznkO0Tm4RnhAu2KatdSqFn7bmU/edit)** のp8以降を確認して設定しよう.
# 演習問題
## 問題
### 問題
#### 演習問題:
* 次回までにご自身で分析してみたいテーマ(回帰分析1つ)+(t検定1つ)+(分散分析1つ)の帰無仮説と対立仮説を考えてきてください.
* 以下の問題を解きましょう.
#### リアクションペーパー:
* 授業で学んだことおよび感想を下記リンクからお答えください.
**[リアクションペーパー](https://forms.gle/jhMGgdhyb3sMgpWm7)**
### ヒント
* こんなことがかかわるかも?
- なんて,演習問題によってヒントが出たり何だりします.
- ヒントがない時は気合でがんばりましょう.
```{r}
```
# データの概要
### データ概要
ダウンロードは**[コチラ](https://akrgt.github.io/2019DA/data/exdataset.csv)**から
```{r}
library(DT)
DT::datatable(exdataset)
```
### 変数名リスト
#### 主観的指標
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ------------------------------------------------------------ | ------------------------------------------------ |
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
#### 独裁者ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_提案者
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_応答者
図を見て下さい.
あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 信頼ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 自然関連
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 監視
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 死後
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | -------------------------------------- | --------------------------------- |
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 性行動
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------- | ---------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
| | | | |
#### フェイスシート
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県|
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |